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. (54) Title: METHOD AND ARRANGEMENT FOR POWER EFFICIENT CONTROL OF PROCESSORS 

I (54) Braeichnung: VERFAHRENUND ANORDNUNGZURLEISTUNGSEFFIZIENTENSTEUERUNGVONPROZESSOREN 

(57) Abstract: The invention relates to a method for 
the functional control of program and/or data flows 
in digital signal processors and processors which 
have respective closed and separated modules for 
program and data flow control, working in parallel 
with computers. The aim of the invention is to carry 
out a power-efficient adaptation of the signal process 
with the applied SIMD command-type in the individual 
paths and minimize the emergence of the appearance 
of NOP-commands with which the VLIW-architecture 
of the processor must be supplied. This is achieved by 
individually controlling the parallel signal processing of 
the processor in the data paths (DP) which respectively 
belong to the first and second slice. This is canried out 
by causing a single slice halt outputted from an SSM 
register bank to switch the register clockline according 
tostate-dependent signal processing. 

(57) Zusammenfassung: Die Erfindung betrifift ein 
Verfahren zur funktionalen Steuerung des Programm- 
und/oder Datenflusses in digitalen Signalprozessoren 
und Prozessoren mit jeweils abgeschlossenen und 
voneinander getrennten Modulen zur Programm- und 
zur Datenflusskontrolle, die in parallelen Rechenwerken 
arbeiten. Die erfindungsgemasse Aufgabenstellung, 
eine leistungsefBziente individuelle Anpassung der 
Signalverarbeitung bei der angewandten Befehlsart 
SIMD in den einzelnen Datenpfaden zu realisieren 
und das Aufkommen an NOP-Befehlen, mit denen 
die VlIW-Architektur des Prozessors versorgt werden 
muss, zu minimieren, geschieht daduich, dass infolge 
der von der PCU umgesetzten SIMD Befehle die 
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Signalverarbeitung des Piozessors in den Datenpfaden (DP), die jeweils zu einem ersten und zweilen Slice zugehSren, individuell 
gesteuert wird. Die geschieht dadurch, dass ein von einer SSM-Registeibank ausgegebener "Singje-Slice-Half'-Zustand die Regis- 
ter-Taktveisoigung der Slices je nach dem Stand anfallenden Signalverarbeitung geschaltet wird. 



wo 03/096184 



PCT/DE03/01S40 



Verfahren und Anordnung zur leistungsef fizienten Steuerung 
von Prozessoren 

Die Erfindung betrif ft ein Verf aliren zur firnktionalen Steuerung 
des. Programm- und/oder. Datenflusses in digitalen Signalpro-' 
zessoren iind Prozessoren mit jeweils abgeschlossenen und von- 
einander getrennten Modulen zur Prograirati- und zur Datenfluss- 
kontrolle, die in parallel en Rechenwerken arbeiten. 

Bex den digitalen signal-Prozessoren (DSP) bekommen zunehmend 
Prozessoren Bedeutung, bei denen ihre Architektur eine Slice- 
Struktur aufweist. Hierbei werden Datenpfade zu Slices zusam- 
mengefasst, wobei in einem ersten Slice eine Signalverarbeitung 
unabhangig von der in einem zweiten Slice parallel ablaufenden 
Signalverarbeitung abgearbeitet wird. 

Wird in den parallelen Rechenwerken dieser digitalen Signalpro- 
zessoren in der Befehlsart SIMD gearbeitet, ergibt sich beim 
Stand der Technik das Problem, dass oftmals die dabei angewen- 
deten Algorithmen nicht zur parallelen Signalverarbeitung in 
alien Slices geeignet sind. 

So lassen sich beispielsweise bei der Signalverarbeitung in den 
einzelnen Slices, bedingt durch die jeweils dort angewendeten 
unterschiedlichen Algorithmen, die anfallenden Ergebnisse meist 
nur zu unterschiedlichen Zeitpunkten bzw. nach einer unter- 
schiedlichen Anzahl von Prozessortakten im jeweiligen Slice be- 
reitstellen. 
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Das Regime der mit den anderen SIMD Slices konformen Bef ehlsab- 
arbeitiuig kann entweder gar nicht oder niar mit hohem Aufwand 
durchgeset'zt werden. 

Dieser erforderlich hohe Aufwand failt einerseits softwaremaSig 
als zusatzliche abzuarbeitende Programme, die die iinterschied- 
lichen Wartezeiten fur die Slices organisieren an, urn die pa- 
rallele Bereitstellung der Ergebnisse zu realisieren. 

.Anderseits tritt dieser hohe Aufwand in der Hardware als starke 
Prozessor- und Speicherauslastung auf , die die Prozessorleis- 
tmgsfahigkeit vermindert Diese Verminderung kann z.B. durch 
eine Speichererweiterung abgewendet werden, was jedoch eine 
yergroSertmg des Hardwareaufwandes bedeutet. 

Beim Stand der Technik erweist es sich als Nachteil, dass zur 
notwendigen Anpassung der Algorithmen an die Befehlsart SIMD 
bei der Signalverarbeitung, vomehmlich in den Slices mit ihren 
zugehOrigen Datenpfaden, diese Slices und weitere zugehorige 
VLIW-Architektur des Prozessors in erheblichem Umfang mit No- 
Ogeration-Befehlen (NOP) versorgt werden massen. 

Auf diese Weise wird die leistimgssteigemde Bf fekte der Anwen- 
dung der SIMD-Bef ehlsart nicht nur unwirksam gemacht, sondem 
es ist dariiber hinaus zur Algorithmen-Anpassung zusStzlicher 
hardware- und softwarem^Siger Aufwand notwendig. 

Somit besteht die erf indungsgemaSe Aufgabenstellung darin, eine 
leistungseffiziente individuelle Anpassung der Signalverarbei- 
tung bei der angewandten Befehlsart SIMD in den einzelnen Da- 
tenpfaden zu realisieren und insbesondere das Aufkommen an NOP- 
Befehlen, mit denen die VLIW-Architektur des Prozessors ver- 
sorgt werden muss, zu minimieren. 

Die erfindungsgemage L5sung der Aufgabenstellung wird dadurch 
erreicht, dass die infolge der von der PCU lamgesetzten SIMD- 
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Befehle parallels Signalverarbeitung des Prozessors in einem 
jeweiligen Datenpfad (DP) eines ersten und zweiten Slice durch 
ein von einer SSM-Registerbank je Slice ausgegebenen "Single- 
Slice-Halt "-Zustandes individuell gesteuert wird. 

• 5 

Hierbei wird die steuemde Wirkung des ausgegebenen "Single- 
Slice-Halt "-Zustandes dadurch erreicht, dass die fiir den ersten 
und zweiten Slice zugeordneten Bits der SSM-Registerbank iiber 
die jeweilig zugehSrige erste und zweite Gated-Clock-Zelle die 
10 Register-Taktversorgung schalten, 

Dadurch wird das zugehOrige Eingangsregister und/oder Akkumula- 
tor und/oder Pipeline-Steuerregister je nach dem Stand der in 
dem Slice des Datenpfades anfallenden Signalverarbeitung zwi- 
15 schenzeitlich gestoppt. 

Erst durch den Wegfall des ausgegebenen "Single-Slice-Halt "- 
Zustandes wird diese Funktion bei einer Umsetzung eines weite- 
ren SIMD Befehles freigegeben. 

20 

Unabhangig vom ausgegebenen " Single-Slice-Halt "-Zustand bleiben 
die Register-File-Einheit (RFU) und das Speicherzugrif fsregis- 
ter des Prozessors in Funktion. Die SSM-Registerbank der PCU 
ist dabei jederzeit durch die PCU beschreibbar . 

25 

Diese Losung zielt darauf ab, dass in den Slices der Datenpfade 
des Prozessors entsprechend der Befehlsart SIMD parallel mit 
den einzelnen Berechnungen begoimen wird. 

30 Aber durch die unterschiedlichen BerechnungsablSufe erfolgt die 
Bereitstellung der Zwischen- \and/oder Endergebnisse in den Sli- 
ces zu unterschiedlichen Zeitpunkten in den Pipeline- 
Steuerregistem, Akkumulatoren bzw. Ergebnisregistem der zuge- 
horigen Datpnpfade. 

35 

Somit wird nach der Bereitstellung der Zwischen- und/oder End- 
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ergebniswerte eine weitere Signalverarbeitimg in den zu den 
einzelnen Slices zugehorigen Datenpfaden, die nicht mehr ergeb- 
nistrSchtig ist, unterbunden. 

Die Signalverarbeitung wird parallel in alien Dateaipfaden der 
Slices fortgesetzt, wenn begonnen wird, einen weiteren SIMD- 
Befehl abzuarbeiten. 

Eine erganzende Ausfuhrung der erf indiingsgemaSen L6sung der 
Aufgabenstellung besteht darin, dass die Taktversorgimg fur die 
VLIW-Einheit durch eine sof twarebedingte Zustandsausgabe aus 
dem Programmfluss des Prozessors so gesteuert wird, dass da- 
durch Teilinstruktionsworte, die in der VLIW-Einheit aktuell 
vorliegen, in dieser anschlieSend fur eine Mehrfachverwendung 
an den Funktionseinheiten bereitgestellt werden. 

Diese erf indungsgemaSe L5sung wird vorteilhaft wirksam, falls 
es eine notwendige Algoritlimen-Anpassung an die SIMD-Befehlsart 
bei der Signalverarbeitung erforderlich macht, dass die Daten- 
pfade bzw. die zugehSrige VLIW-Architektur des Prozessors mit 
Nb-^eration-Befehlen (NOP) oder ahnlichen Befehlen mit hoher 
Wiederholrate versorgt werden mussen. Dabei werden durch die 
vermiedene Generierung von gleichen VLIW der Speicherplatz- 
verbrauch reduziert und die Rechenbelast\mg des Prozessors ge- 
ring gehalten, so dass die Rechenleistung effizient ftir die 
wichtigen Berechnungen zur Verfugung steht. 

Eine vorteilhafte Variante der erganzenden Ausfuhrung der er- 
findungsgemaSen L5sung besteht darin, dass das Generieren von 
weiteren VILW in der VLIW-Einheit dadurch unterbrochen wird, 
inderti der PCU ein VLIW-WAIT-Kommando iiber eine Vorsignalleitung 
angekiindigt wird und im nSchsten Takt dieses Koiiraiando an die 
PCU angelegt wird, wobei nachfolgend die PCU mittels einer 
"VLIW-WAIT".-Signalleitung und einer dritten Gated Clock-Zelle 
die Taktversorgung far die VLIW-Einheit schaltet. 
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Diese liosung zielt darauf ab, dass Debug-Routinen bei Software- 
priifungen realisiert werden konnen, indem Software-Break-Points 
im Programmcode gesetzt und angefahren werden konnen. 

Die Erfindung soli nachfolgend anhand eines Ausfiihrungsbei- 
spieles fiir die Ausgabe eines Single-Slice-Halt-Zustandes naher 
erlautert werden. In der Zeichnungsf igur liegt ein Blockschalt- 
bild des Prozessors vor, in dem die Telle mit den zugehSrigen 
Funktionseinheiten aufgefiihrt werden, welche die erf indungsge- 
maSe L6sung betreffen. 

Far den Fall, dass die Ausgabe des "Single-Slice-Halt" - 
Zustandes wirkt, ist es Voraussetzung, dass ein SIMD-Befehl li- 
ber den SIMD-Steuer-Bus 12 von der VLIW-Einheit 2 ausgegeben 
wird. Dieser einzelne SIMD-Befehl lost eine mehrfache Datenver- 
arbeitung in dem jeweiligen Datenpfad 14 des ersten md zweiten 
Slice 18; 19 aus. 

Die Ergebnisse werden in dem zugehorigen Akkumulator 8 zu un- 
terschiedlichen Zeitpunkten bereitgestellt . Hierbei wird ein 
jeweils zum ersten und zweiten Slice 18; 19 zugeordnetes Bit 
der SSM-Registerbank 13. gesetzt. 

Die Signalbelegung dieses Bits wird an den zum ersten und zwei- 
ten Slice 18; 19 jeweilig zugehSrigen Datenpfad 14 tiber die 
erste und/oder zweite Gated-Clock-Zelle 3; 4 zugeftihrt und 
steuert die Signalverarbeitung im ersten und zweiten Slice 18; 
19 individuell, indem bei einem vorliegendem Ergebnis in diesem 
Slice die Taktversorgung am zugehSrigen Eingangsregister und 
damit auch die Signalverarbeitung unterbunden wird. 

Bei der Ausgabe eines weiteren SIMD-Befehl auf dem SIMD-Steuer- 
Bus 12, z.B. nach Bereitstellung des letzten in einem der Sli- 
ces erarbeiteten Ergebnisses, wird das jeweilige Bit der SSM- 
Registerbank 13 zurtickgesetzt und alle Datenpfade beginnen die 
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nachste Signalverarbeitung indem sie an ihren Eingangsregistem 
die von der RFU 11 bereitgestellten Daten einlesen. 

Damit wird die Signalverarbeitung in den einzelnen Slices der 
Datenpfade 14 vorteilhaft an die Erfordemisse paralleler Abar- 
beitiing der SIMD-Bef ehle angepasst. 
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verfahren und Anordnung zur leistungsef fizienten Steuerung 
von Frozessoren 



Bezugszeichenliste 



1 


Prozessor 


2 


VLIW-Einheit (Very-Liong-Instruction-Word) 


3 


erste Gated-Clock-Zelle 


4. 


zweite Gated-Clock-Zelle 


5 


AGU (Address-Generating-Unit) 


6 


PCU (Process-Controlling-Unit) 


7 


Taktver s or gxmgs 1 ei tung 


8 


Akkxjmulator 


9 


weitere verarbeitungseinheit (mit Gated-Clock-Zelle) 


10 


Register der weiteren verarbeitungseinheit 


11 


RFU ( Regis ter-File-Einheit) 


12 


SIMD-Steuer-Bus 


13 


SSM-Registerbank (Single- SI ice-Mode) 


14 


Datenpfad 


15 


SIMD-Datenpfad-Steuerleitung 


16 


Vors ignal lei tung 


17 


VLIW-WAIT-Signallleitung 


,18 


erster Slice 


19 


zweiter' Slice 


20 


dritte Gated-Clock-Zelle 
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verfahren und Anordnung zur leistungsef f izienten Steuerwig 
von Prozessoren 

Patentanspriiche 

1. Verfahren zur funktionalen Steuerung des Programm- 
und/oder Datenflusses in digitalen Signalprozessoren imd 
Prozessoren mit jeweils abgeschlossenen und voneinander 
getrennten Modulen zur Programm- und zur Datenf lusskon- 
trolle, die in parallelen Rechenwerken arbeiten, dadurch 
gekennzeichnet , dass infolge der von der PCU (6) umgesetz- 
ten SIMD Befehle die parallele Signalverarbeitung des Pro- 
zessors (1) in einem zum ersten und zweiten Slice 
(18); (19) jeweils zugehSrigen Datenpfad DP (14) durch ein 
von einer SSM-Registerbank (13) ausgegebenen " Single- 
Slice-Halt "-Zustandes individuell gesteuert wird, wobei 
die steuemde Wirkung des ausgegebenen "Single-Slice- 
Halt "-Zustandes dadurch erreicht wird, indem die fiir jeden 
Slice zugeordneten Bits der SSM-Registerbank (13) liber die 
jeweilige erste land zweite Gated-Clock-Zelle (3); (4) die 
Regis ter-Taktversorgung schalten und dadurch je nach dem 
Stand der anfallenden Signalverarbeitung in dem zum jewei- 
ligen Slice zugehorigen DP (14) das zugeordnete Eingangs- 
register und/oder Akkumulator und/oder Pipeline- 
Steuerregister in seiner Funktion zwischenzeitlich ge- 
stoppt wird und diese Funktion erst durch den Wegfall des 
ausgegebenen - single-Slice-Halt "-Zustandes infolge einer 
Umsetzung eines weiteren SIMD Befehls wieder freigegeben 
wird. 
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dass unabhangig vom ausgegebenen " Single-Slice-Halt 
Zustand die Register-File-Einheit (RFU) (11) und das Spei- 
cherzugriffsregister des Prozessors (1) in Funktion blei- 
ben, und die SSM-Registerbank (13) der PCU (6) ist dabei 
. jederzeit durch die PCU beschreibbar . 

2. Verfahren zur funktionalen Steuerung des Programm- 
\md/oder Datenflusses in digitalen Signalprozessoren und 
Prozessoren mit jeweils abgeschlossenen und voneinander 
getrennten Modulen zur Programin- und zur Datenf lusskon- 
trolle, die in parallelen Rechenwerken arbeiten, dadurch 
gekennzeichnet, dass die Taktversorgung fur die VLIW- 
Einheit (2) durch eine sof twarebedingte Zustandsausgabe 
aus dem Prograramf luss des Prozessors (1) so gesteuert 
wird, dass dadurch Teilinstruktionsworte die in der VLIW- 
Einheit (2) aktuell vorliegen, in dieser anschlieSend ftir 
eine Mehrfachverwendimg an den Funktionseinheiten bereit- 

■ gesteilt werden. 

3. verfahren nach Anspruch 2, dadurch gekennzeichnet , dass 
das Generieren von weiteren VILW in der VLIW-Einheit (2) 
dadurch unterbrochen wird, in dem der PCU (6) ein VLIW- 
WAIT-Kommando uber eine Vorsignalleitung (16) angekiindigt 
wird und im nSchsten Takt dieses Kommando an die PCU (6) 
angelegt wird, wobei nachfolgend die PCU (6) mittels einer 
"VLIW-WAIT"-Signalleitung (17) und einer dritten Gated 
Clock-Zelle (20) die Taktversorgung fiir die VLIW-Einheit 
(2) schaltet. 



